众所周知,自动语音识别(ASR)系统在转录儿童的言语时会出现困难。这主要归因于没有大儿童的语音语料库来培训强大的ASR模型以及在用接受成人数据培训的系统解码儿童演讲时所产生的领域不匹配。在本文中,我们提出了多种增强能力来减轻这些问题。首先,我们根据语音源过滤器模型提出了一种数据增强技术,以缩小成人和儿童语音之间的领域差距。这使我们能够通过使这些样本在感知上与儿童的言语相似,从而利用成人语音语料库的数据可用性。其次,使用这种增强策略,我们将转移学习应用于成人数据预先训练的变压器模型。该模型遵循最近引入的XLS-R体系结构,这是对几个跨语性成人语音语料库进行预训练的WAV2VEC 2.0模型,以学习一般和强大的声学框架级表示。使用拟议的来源滤清器扭曲策略增强的成人数据来采用此模型,以实现ASR任务,并且在PF-Star英国英语儿童演讲语料库上的先前最先进的结果大大优于先前的最先进的结果官方测试集中的4.86%。
translated by 谷歌翻译